Các khái niệm cơ bản Biểu thức chính quy

Biểu thức chính quy, thường được gọi là mẫu, là biểu thức được sử dụng để chỉ định một xâu các xâu cần thiết cho một mục đích cụ thể. Một cách đơn giản để xác định một bộ xâu hữu hạn là liệt kê các thành phần hoặc thành viên của nó. Tuy nhiên, thường có nhiều cách ngắn gọn hơn để chỉ định bộ xâu mong muốn.

Ví dụ: tập hợp chứa ba xâu "Handel", "Händel" và "Haendel" có thể được chỉ định bởi mẫu H(ä|ae?)ndel; chúng tôi nói rằng mô hình này phù hợp với từng trong ba xâu. Trong hầu hết các xâu, nếu tồn tại ít nhất một biểu thức chính quy khớp với một tập hợp cụ thể thì sẽ tồn tại vô số các biểu thức chính quy khác cũng khớp với nó. Biểu thức chính quy không phải là duy nhất. Hầu hết các hình thức cung cấp các hoạt động sau đây để xây dựng các biểu thức thông thường.

Hoặc "or"Một thanh dọc ngăn cách các lựa chọn thay thế. Ví dụ: gray|grey có thể khớp với "gray" hoặc "grey".Phân nhómDấu ngoặc đơn được sử dụng để xác định phạm vi và mức độ ưu tiên của các toán tử (trong số các cách sử dụng khác). Ví dụ: gray|grey và gr(a|e)y là các mẫu tương đương, cả hai đều mô tả tập hợp "gray" or "grey".Định lượngBộ định lượng sau mã thông báo (chẳng hạn như ký tự) hoặc nhóm chỉ định tần suất mà phần tử trước được phép xảy ra. Các định lượng phổ biến nhất là dấu hỏi?, Dấu hoa thị * và dấu cộng +.
?Dấu hỏi chỉ ra không hoặc một lần xuất hiện của phần tử trước. Ví dụ: colou?r khớp với cả "color" and "colour".
*Dấu hoa thị cho biết không có hoặc nhiều lần xuất hiện của phần tử trước. Ví dụ: ab * c khớp với "ac", "abc", "abbc", "abbbc", v.v.
+Dấu cộng cho biết một hoặc nhiều lần xuất hiện của phần tử trước. Ví dụ: ab + c khớp với "abc", "abbc", "abbbc", v.v., nhưng không phải là "ac".
{n}[1]Mục trước được khớp chính xác n lần.
{min,}[1]Mục trước được khớp tối thiểu hoặc nhiều lần hơn.
{min,max}[1]Mục trước được khớp ít nhất lần tối thiểu, nhưng không quá lần tối đa.
Ký tự đại diện

Các ký tự đại diện . phù hợp với bất kỳ ký tự. Ví dụ: a.b khớp với bất kỳ xâu nào chứa "a", sau đó là bất kỳ ký tự nào khác và sau đó là "b", a.*b khớp với bất kỳ xâu nào có chứa "a" và "b" ở một điểm nào sau đó.

Các cấu trúc này có thể được kết hợp để tạo thành các biểu thức phức tạp tùy ý, giống như người ta có thể xây dựng các biểu thức tính toán từ các số và các phép toán +, -, × và:. Ví dụ, H(ae?|ä)ndelH(a|ae|ä)ndel đều là các mẫu hợp lệ khớp với các xâu giống như ví dụ trước đó, H(ä|ae?)ndel.

Cú pháp chính xác cho các biểu thức chính quy khác nhau giữa các công cụ và ngữ cảnh; chi tiết hơn được đưa ra trong phần Cú pháp.

Tài liệu tham khảo

WikiPedia: Biểu thức chính quy http://www.hermann-gruber.com/data/icalp08.pdf http://msdn.microsoft.com/en-us/library/hs600312.a... http://msdn2.microsoft.com/en-us/library/ms974570.... http://java.sun.com/docs/books/tutorial/essential/... http://swtch.com/~rsc/regexp/regexp1.html http://drops.dagstuhl.de/opus/volltexte/2008/1354 http://regex.info/ http://www.laurikari.net/tre/ http://billposer.org/Linguistics/Computation/Resou... http://doc.cat-v.org/bell_labs/structural_regexps/